Lab8 - Codificação de Áudio com ffmpeg

Profs. Celso S. Kurashima e Mário Minami

Alunos:

  1. João Vitor Garrido - RA: 11201811064
  2. Gabriel de Oliveira Souza - RA: 11201811094
  3. Victor Gabriel Ferreira dos Santos - RA: 11201811459

1. Introdução

Neste laboratório, foram utilizadas as bibliotecas Scipy, Librosa e codec ffmpeg, dentro do ambiente de desenvolvimento do Google Colab, para estudar técnicas de codificações e manipulações de áudio, utilizando a linguagem Python.

Dentre as atividades de processamento desenvolvidas, foi possível atingir os seguintes objetivos:

Objetivos:

Link para o ambiente Colab utilizado no desenvolvimento desta prática:

Importando todas as Bibliotecas utilzadas durante esta prática de laboratório:

Adquirindo os Arquivos de áudio do repositório do GitHub:

2.Áudio Abba - Estudo de Codificações de Áudio ffmpeg

Abaixo, temos a função display_audio(file_path: str,plot=False), utilzada para ler o arquivo de áudio com a biblioteca Librosa e visualizá-lo dentro do ambiente do Google Colab.

Adicionalmente, a função recebe um parâmetro opcional, para plotar a waveform do aúdio anteriormente lido.

Arquivo .wav full

Espectrograma Original

Conversão wav em mp3, 128kbps

Áudio e Espectrograma do arquivo codificado

Espectrograma do Arquivo codificado a 128kbps

Codificando a 64kbps

Espectrograma do arquivo a 64kbps

Audio do arquivo

Conversão de Codecs

Faça o procedimento para mais três taxas, 32k, 16k e 8kbps.

Alterando a velocidade

Audio v2 - Duas vezes a velocidade do áudio Original

Mude para um tempo mais lento - 25% mais lento que o áudio original

3.Aúdio Gravado (kisskiss) - Estudo de Codificações de Áudio ffmpeg

Repita todos os passos para um arquivo de áudio original de preferência de um CD, mas ao invés da opção codificação com taxa fixa (-b:a), use -q:a N (com N um número de 0 a 9), de 320 a 65kbps.

Carregando o Arquivo de Áudio

Display do Arquivo Original

Espectograma do Áudio Original

Codificando o arquivo (-q:a N)

Display do Arquivo Codificado (-q:a N=9)

Espectograma do Áudio Codificado

Reduzindo a Velocidade do Áudio Original

Aumentando a Velocidade do Áudio Original

4.Comparativo de Espectrogramas e Taxas de Compressão

4.1.Comparativo Espectrogramas - Áudio KissKiss

Através do Espectrograma, podemos ver que para o áudio codificados com o parâmetro -q:a 9, todas as frequëncias superiores à 8kHz foram perdidas.

Sendo assim, houve uma forte perda de informação nas frequências mais elevadas, relativamente ao áudio original.

4.2.Comparativo Taxas de Compresão

4.2.1. Arquivo de áudio kisskiss

4.2.2. Arquivo de áudio Abba

5.Conclusão

Neste laboratório, através da manipulação de dados de áudio, foi possível aplicar técnicas de codificação de sinais, em arquivos de áudio/voz musicais.

Através das bibliotecas scipy e librosa e codec ffmpeg, foi possível realizar processos de codficação para compressão e manipulação de arquivos de áudio, alterando sua qualidade, quantidade de informação armazenada e velocidade de reprodução.

A partir dos sinais analisados, foram extraídas componentes como: